智能论文笔记

“线框”是一种基于线段的线段表示，旨在掌握周围的常规结构形状的人造场景的大规模视觉属性。与线框不同，传统的边缘或线段聚焦在所有可见边缘和线上，而不特别区别对人为结构信息更加突出。现有的线框检测模型依赖于监督注释数据但不明确地注意了解如何构成场景的结构形状。此外，我们经常面临许多前景对象，遮挡背景场景干扰它们背后的完整场景结构的适当推断。为了解决这些问题，我们首次在该领域中，提出新的条件数据生成和培训，帮助模型了解如何忽略孔所示的遮挡，例如在图像上屏蔽的前景对象区域。此外，我们首先将GaN结合在模型中，让模型更好地预测潜在的场景结构，即使超出大孔。我们还介绍了伪标签，以进一步扩大模型容量来克服小规模的标记数据。我们在定性和定量上展示我们的方法显着优于以前的工程无法处理孔，并且可以改善普通检测，没有给出孔。

translated by 谷歌翻译

Resolution-robust Large Mask Inpainting with Fourier Convolutions

Roman Suvorov , Elizaveta Logacheva , Anton Mashikhin , Anastasia Remizova , Arsenii Ashukha , Aleksei Silvestrov , Naejin Kong , Harshith Goka , Kiwoong Park , Victor Lempitsky

分类：计算机视觉

2021-09-15

现代形象染色系统，尽管取得了重大进展，往往与大型缺失区域，复杂的几何结构和高分辨率图像斗争。我们发现这是一个主要原因之一是缺乏染色网络和损失功能的有效的接受领域。为了减轻这个问题，我们提出了一种称为大面膜修正（LAMA）的新方法。喇嘛基于i）一种新的侵略网络架构，它使用具有图像宽接收领域的快速傅里叶卷曲（FFC）; ii）高接受领域感性损失; iii）大型训练面具，可解锁前两个组件的潜力。我们的批准网络在一系列数据集中改善了最先进的，即使在具有挑战性的情况下也能实现出色的性能，例如，完成定期结构。我们的模型令人惊讶地展现得比在火车时间高于所看到的决议，并在比竞争性基线更低的参数和时间成本实现这一目标。代码可用于\ url {https:/github.com/saic-mdal/lama}。

translated by 谷歌翻译

自动化讲故事长期以来一直抓住了研究人员在日常生活中的叙述中的难以感受。但是，在用神经语言模型产生叙述时，保持一致性并保持对特定结束的特定结束挑战。在本文中，我们介绍了读者模型（Storm）的故事生成，这是一个框架，其中读者模型用于推理故事的推理应该进步。读者模型是人类读者相信关于虚构故事世界的概念，实体和关系的人。我们展示了如何作为知识图表所代表的明确读者模型提供故事一致性，并以实现给定的故事世界目标的形式提供可控性。实验表明，我们的模型产生了显着更加连贯和主题的故事，优于尺寸的基线，包括情节合理性并保持主题。我们的系统也优于在未订购的情况下在组成给定概念时占总引导的故事生成基线。

translated by 谷歌翻译

结构建筑物的坍塌通常被认为是潜在的错失，已经证明了建筑物的损害，导致事故。必须连续监测人类访问受到限制的故障的任何建筑物。通过在计算机视野领域出现的无人机（无人驾驶飞行器），监测任何建筑物并检测这些故障都被视为一种可能性。本文提出了一种新的方法，其中自动无人机遍历目标建筑物，检测建筑物中的任何潜在故障，并定位故障。通过所提供的建筑物的尺寸，产生了建筑物周围的路径。由UAV的板载摄像机捕获的图像通过神经网络系统来确认存在故障。一旦检测到故障，UAV就会向检测到裂缝的相应位置时操纵。使用ROS（机器人操作系统）使用初始化ROS包装器的AIRSIM环境进行仿真，并提供ROS和AIRSIM的集成接口，与UAV一起模拟。

translated by 谷歌翻译